home *** CD-ROM | disk | FTP | other *** search
/ Shareware Grab Bag / Shareware Grab Bag.iso / 001 / pctj0486.rqw / pctj0486.rvw
Text File  |  1986-04-12  |  7KB  |  107 lines

  1. Review of the article "Statistical Correlation", by Thomas Madron in the
  2. April, 1986 issue of PC Tech Journal.
  3.  
  4. This article could have been a useful addition to the literature on
  5. statistical computing methods for microcomputers and could have provided
  6. readers with a reasonable introduction to multivariate statistical analysis.
  7. However, it is so permeated with incorrect statistical theory and naive
  8. computing methods that readers should be warned not to use either the text or
  9. the program listings for guidance in writing a statistics package.  I am not
  10. quibbling over minor discrepencies or over issues that are being honestly
  11. debated in the statistical community.  Rather, I am challenging the
  12. authors' understanding of some of the fundamental concepts of multivariate
  13. statistical computing.
  14.  
  15. Specifically, the following are significant misstatements of fact and
  16. erroneous interpretations of statistical methods:
  17.  
  18. 1.  The text accompanying Figure 1 states "The correlation coefficient is the
  19. slope of the 'best fit' straight line through these points." In fact, the
  20. correlation coefficient equals the slope of the line times the ratio of the
  21. standard deviations of the two variables.
  22.  
  23. 2.  On page 128 is the statement "A coefficient of + or - 1.0 implies a
  24. completely causal relation between two variables ...  ." In fact, a unit
  25. correlation only implies that two variables are perfectly associated and says
  26. nothing about causal relationships.  This is an extremely important
  27. distinction that students learn in their first class in correlation.
  28.  
  29. 3.  The discussion of the consequences of missing data on page 130 is obscure
  30. at best.  For example, the statement "A correlation coefficient based on these
  31. two variables can have a somewhat different meaning than if all respondents
  32. had answered both questions" is meaningless, since the correlation is simply
  33. computed on the sample of observations with data present on both variables.
  34.  
  35. 4.  The description of Figure 5 is incorrect and incomplete.  The title
  36. "Sample Correlation Matrix" is wrong, since Figure 5 is a contingency table
  37. display of the frequencies of occurrence of the responses to the two
  38. questions.  While the rows and columns of Figure 5 are never described, the
  39. text implies that "3" represents missing data and the valid responses are "1"
  40. and "2".  In that case, Pearson's product moment correlation is entirely
  41. inappropriate to describe the association between two dichotomous variables,
  42. since it is used to measure the association between continuous variables.
  43.  
  44. 5.  On page 130 the statement "CORL.FOR is a linear analysis, finding a linear
  45. least-squares fit and performing a linear transformation to normalize data
  46. around 0" is completely incorrect and reveals the authors' total ignorance of
  47. the subject, since neither correlation nor linear least-squares normalizes
  48. data about anything.  If one wanted to normalize the data around 0, one could
  49. subtract the mean and divide by the standard deviation to transform each
  50. observation to a standard normal deviate.
  51.  
  52. 6.  The author has obviously confused the population standard deviation with
  53. the estimate of it based on a sample from that population.  The glossary on
  54. page 132 and the program listing on page 140 both indicate that the
  55. denominator of the computed standard deviation is N, when, in fact, the
  56. correct value in this case is N-1.  There are some cases when N might be
  57. justified, but the simple linear model analysis problem is not one of them.
  58.  
  59. 7.  On page 140 is the comment "Programs that calculate significance tests
  60. usually need an estimate of the number of observations.  Subsequent programs
  61. use the LOWEST number of observations taken from the lower diagonal matrix as
  62. a conservative estimate since any significance tests based on a data matrix
  63. with missing data are suspect." Nonsense!.  In the first place, one does not
  64. estimate the number of observations since one can count them exactly.  What
  65. the author probably meant to say was that in making multivariate tests of
  66. hypotheses with missing data some adjustments may be required to the degrees
  67. of freedom for the particular test.  However, univariate tests of significance
  68. on individual correlations with different numbers of observations are entirely
  69. appropriate and valid.
  70.  
  71. In addition, the authors' discussion of the computing issues involved in
  72. calculating correlations and standard deviations on microcomputers on pages
  73. 128-129 is grossly inadequate.  As shown in "Statistical Programs for
  74. Microcomputers", by Peter A.  Lachenbruch (Byte Magazine, November, 1983)
  75. arithmetic on sums and sums of squares can be deceptively treacherous.  For
  76. example, the authors' computational formula on page 129 was originally
  77. developed for mechanical calculators to avoid the need for making two passes
  78. through the data.  However, when that formula is blindly applied to data that
  79. is large in magnitude and has little variation, the results can be totally
  80. unpredictable.  The problem is compounded by performing the operations on sums
  81. and sums of squares in single precision, as the author has done on page 140.
  82. At the very least, the potentially disastrous results of accumulating
  83. round-off errors can be moderated by performing these operations in double
  84. precision.  Also, centering the data by subtracting the means before the
  85. correlations are computed can more than make up for the added execution time
  86. by providing some additional protection against producing meaningless results.
  87. These and other issues related to the potential loss of precision in
  88. statistical microcomputing are discussed in some detail in the excellent
  89. article by Lachenbruch.
  90.  
  91. I wasn't going to expend this effort until I saw that the author intends to
  92. publish more articles in the future on test reliabliity, stepwise multiple
  93. regression, factor analysis, and other multivariate methods of analysis.
  94. Based on the quality of the authors' first effort, the potential for disaster
  95. is enormous.  I strongly recommend that anyone wanting to do multivariate
  96. statistical analysis on their microcomputer get their guidance from someone
  97. who has demonstrated at least a minimal level of competency in both
  98. statistical methods and statistical computing.  In my opinion, this author has
  99. done neither.  I am frankly amazed that the editorial process at PC Tech
  100. Journal is so weak as to allow potentially harmful information like this into
  101. print.  PCTJ would do its readers a service by having a competent statistician
  102. review such articles on statistics before they are published.
  103.  
  104. David N. Ikle', Ph.D.
  105. Biostatistician
  106. Denver, CO
  107.